0%

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

Posted on 2023-08-16 Edited on 2024-08-09 In BEV Valine:

URL

paper: https://arxiv.org/pdf/2203.17270.pdf
chinese paper: https://drive.google.com/file/d/1dKnD6gUHhBXZ8gT733cIU_A7dHEEzNTP/view?pli=1
code: https://github.com/fundamentalvision/BEVFormer

TL;DR

传统 BEV 算法中 View Transform 都是通过 LSS 实现 Image View 到 BEV View 的转变，这种视角转换方法依赖于图像视角的深度估计（显式或隐式）。
本文提出一种新的通过时空注意力机制实现的 View Transform 方法，在 Neuscenes 数据集上取得了不错的 3D 目标检测成绩（略差于 BEVDet4D）。

Algorithm